13-11-2023

1 Inspección de los datos

1.1 Obtención de los datos

1.2 Previsualización del fichero principal

La información está almacenada en el fichero en filas de longitud fija.

Interpretamos la información con el fichero de metadatos.

2 Preprocesado

2.1 Comprobación de longitud y separación en variables

  • Comprobar la longitud de las entradas crudas.

  • Separar por variables.

2.2 Obtención de los diccionarios

A continuación, extraemos de los ficheros adicionales la información necesaria para interpretar los códigos de los datos crudos. Generamos dos variables:

  • dict_list: resumen de metadatos de los diccionarios.

$T_MUNI
$T_MUNI$sheet
[1] "Anexo - Lista de países"

$T_MUNI$vars
[1] "MUNINAC"  "MUNIALTA" "MUNIBAJA"

$T_MUNI$is_obs
[1] TRUE

  • dict_info: diccionario completo con todos los códigos y descripciones.

2.3 Aplicación de diccionarios y cambio de clase

  • Aplicamos los diccionarios y convertimos las variables para al formato adecuado, indicado en los metadatos. Figuran dos tipos: N (numérico) -> numeric y A (alfanumérico) -> factor.

  • Creamos nuevas variables categóricas: COMUBAJA, COMUALTA, COMUNAC.

  • Analizamos los NAs introducidos:

3 Análisis estadístico

3.1 Resumen del dataset

En primer lugar, realizamos un summary() para obtener la información esencial de cada variable.

Seguidamente, observamos el tipo de cada variable para confirmar que estén en el formato adecuado empleando la función str().

'data.frame':   5 obs. of  19 variables:
 $ SEXO    : Factor w/ 2 levels "Hombre","Mujer": 2 1 1 1 2
 $ PROVNAC : Factor w/ 53 levels "Araba/Álava",..: 8 8 28 53 53
 $ MUNINAC : Factor w/ 8316 levels "Albania","Austria",..: 1147 1087 4569 136 131
 $ EDAD    : num  26 47 21 19 36
 $ MESNAC  : num  9 2 5 4 8
 $ ANONAC  : num  1994 1974 2000 2002 1985
 $ CNAC    : Factor w/ 202 levels "Albania","Austria",..: 7 7 7 7 131
 $ PROVALTA: Factor w/ 53 levels "Araba/Álava",..: 8 43 33 31 18
 $ MUNIALTA: Factor w/ 8316 levels "Albania","Austria",..: 1143 NA 5254 5027 3000
 $ MESVAR  : num  1 7 7 8 12
 $ ANOVAR  : num  2021 2021 2021 2021 2021
 $ PROVBAJA: Factor w/ 53 levels "Araba/Álava",..: 4 43 28 53 53
 $ MUNIBAJA: Factor w/ 8316 levels "Albania","Austria",..: NA 6595 4569 136 131
 $ TAMUALTA: Factor w/ 6 levels "Municipio no capital hasta 10.000 habitantes",..: 4 1 2 6 4
 $ TAMUBAJA: Factor w/ 6 levels "Municipio no capital hasta 10.000 habitantes",..: 1 3 6 NA NA
 $ TAMUNACI: Factor w/ 6 levels "Municipio no capital hasta 10.000 habitantes",..: 3 6 6 NA NA
 $ COMUBAJA: Factor w/ 20 levels "Andalucía","Aragón",..: 1 9 13 20 20
 $ COMUALTA: Factor w/ 20 levels "Andalucía","Aragón",..: 9 9 3 15 1
 $ COMUNAC : Factor w/ 20 levels "Andalucía","Aragón",..: 9 9 13 20 20

Eliminamos las siguientes variables de nuestro conjunto de datos: MESNAC, ANOVAR, MESVAR.

3.2 Datos faltantes

En los resúmenes mostrados podemos observamos que las variables de municipio y tamaño contienen numerosos valores faltantes. Además, en algunas de las variables categóricas, aparecen niveles cuyo significado es equivalente a un dato faltante de cara al análisis: “No Consta”, “Other”, “Baja por Caducidad”.

3.3 Análisis Univariante: Numéricas

3.4 Aproximación normal

3.5 Movimiento entre comunidades

3.6 Análisis bivariante: Numérica - Numérica

La variable ANONAC debería tener una gran correlación con la variable EDAD.

\(EDAD = 2021 - ANONAC\)

3.6.1 Análisis bivariante: Numéricas- Categóricas

    Welch Two Sample t-test

data:  mujeres$EDAD and hombres$EDAD
t = 0.2, df = 3, p-value = 0.9
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -31.6  35.6
sample estimates:
mean of x mean of y 
       31        29 

3.7 Análisis bivariante: Categóricas - Categóricas

Para seguir con el estudio del éxodo rural, podemos representar la relación entre el tamaño de los municipios de alta y de baja en un mosaico. Por limpieza, hemos recodificado las categorías de tamaño de la siguiente manera.

3.8 Análisis bivariante: Categóricas - Categóricas

Para complementar este análisis, transformamos nuestros datos a fin de obtener un data.frame con la siguiente estructura:

  • MUNI: contiene todos los valores únicos de las variables MUNIALTA y MUNIBAJA.

  • TAMU: valor correspondiente de TAMUALTA / TAMUBAJA.

  • isCAPITAL: valor lógico que indica si el municipio es capital.

  • EDAD: media de la edad de los desplazados desde ó hasta cada municipio.

  • MES: moda del mes en el que se producen los movimientos desde ó hasta cada municipio.

  • nBAJAS: número de bajas en cada municipio.

  • nALTAS: número de bajas en cada municipio.

Las variables adicionales nTOTAL y nNETO son la suma y la diferencia de las últimas dos variables listadas.

3.9 Análisis bivariante: Categóricas - Categóricas

3.10 Análisis interactivo: mapas

Assuming "long" and "lat" are longitude and latitude, respectively

3.11 Características

Se usa el test Chi-cuadrado. Este test supone una hipótesis de partida \(H_0\) (Son independientes) y dependiendo del resultado del test, se acepta o no:

p<0.05: Rechazamos hipótesis p \(\geq\) 0.05: Aceptamos Ho

    Pearson's Chi-squared test

data:  tablacontingencia1
X-squared = NaN, df = 361, p-value = NA

3.12 Análisis de outliers